<!DOCTYPE html>
<html>

<head>
	<meta charset="utf-8">
	<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
	<meta name="theme-color" content="#33474d">
	<title>URL网址规范化 | 失落的乐章</title>
	<link rel="stylesheet" href="/css/style.css" />
	
      <link rel="alternate" href="/atom.xml" title="失落的乐章" type="application/atom+xml">
    
</head>

<body>

	<header class="header">
		<nav class="header__nav">
			
				<a href="/archives" class="header__link">Archive</a>
			
				<a href="/tags" class="header__link">Tags</a>
			
				<a href="/atom.xml" class="header__link">RSS</a>
			
		</nav>
		<h1 class="header__title"><a href="/">失落的乐章</a></h1>
		<h2 class="header__subtitle">技术面前，永远都是学生。</h2>
	</header>

	<main>
		<article>
	
		<h1>URL网址规范化</h1>
	
	<div class="article__infos">
		<span class="article__date">2017-10-12</span><br />
		
		
			<span class="article__tags">
			  	<a class="article__tag-link" href="/tags/Apache/">Apache</a> <a class="article__tag-link" href="/tags/LAMP/">LAMP</a>
			</span>
		
	</div>

	

	
		<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;网址URL规范化（URL canonicalization）是近一年来在Google搜索结果中出现的一个很大的问题。它指的是搜索引擎挑选最好的URL网址作为真正网址的过程。举例来说，下面这几个URL一般来说指的是同一个文件或网页：</p>
<p><a href="http://www.domainname.com" target="_blank" rel="external">http://www.domainname.com</a></p>
<p><a href="http://domainname.com" target="_blank" rel="external">http://domainname.com</a></p>
<p><a href="http://www.domainname.com/index.html" target="_blank" rel="external">http://www.domainname.com/index.html</a></p>
<p><a href="http://domainname.com/index.html" target="_blank" rel="external">http://domainname.com/index.html</a></p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;但是从技术上来讲，这几个URL网址都是不同的。虽然在绝大部分情况下，这些网址所返回的都是相同的文件，也就是你的主页。但是从技术上来说，主机完全可以对这几个网址返回不同的内容。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;当搜索引擎要规范化网址时，搜索引擎需要从这些选择当中挑一个最好的代表。一般来说，你的主页应该是固定的，只有一个。但是有的时候，在很多网站上站长在链接回主页时，所使用的URL并不是唯一的。很可能在你的网站上，一会连到URL <a href="http://www.domainname.com，一会儿连到URL" target="_blank" rel="external">http://www.domainname.com，一会儿连到URL</a> <a href="http://www.domainname.com/index.html" target="_blank" rel="external">http://www.domainname.com/index.html</a> 。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;虽然这不会给访客造成什么麻烦，因为这些网址都是同一个文件，但是对Google来说却是造成了困惑，哪一个网址是你真正的主页呢？如果在你的网站上，不同的版本网址都大量出现，那么这两个URL可能都会被Google收录进数据库，这时就会造成复制内容网页。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;所谓复制内容网页，指的是两个或多个网页的内容是相同或大部分相似的。很多时候，复制网页有可能是作弊手段。就算不是作弊手段的时候，搜索引擎通常也只会挑出其中一个返回搜索结果，而把其他的复制网页都排在最后面，以至于根本找不到。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;当你的网站出现网址URL规范化问题的时候，就有可能造成被怀疑为复制网页，因而影响搜索引擎结果排名。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;从Google的角度来说，他们正在发展所谓大爸爸数据中心基本架构，来解决包括URL规范化的问题。但谁知道能不能解决呢？</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;从站长的角度来考虑，你应该做两件事：</p>
<ol>
<li><p>你的网站内部在链接到其他网页，尤其是主页时，只使用一种URL。不管是包含www或不包含www，你要由始至终只使用一个版本。这样搜索引擎也就明白哪一个是规范化的主页网址。</p>
</li>
<li><p>但是你没办法控制别的网站用哪一个网址连向你的主页。所以你应该在你的主机服务器上，把所有有可能成为主页网址的URL，做301重定向到你所选择的主页网址版本。也就是说，从下面这几个网址</p>
</li>
</ol>
<p><a href="http://domainname.com" target="_blank" rel="external">http://domainname.com</a></p>
<p><a href="http://www.domainname.com/index.html" target="_blank" rel="external">http://www.domainname.com/index.html</a></p>
<p><a href="http://domainname.com/index.html" target="_blank" rel="external">http://domainname.com/index.html</a></p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;都要做301重定向到这个网址</p>
<p><a href="http://www.domainname.com" target="_blank" rel="external">http://www.domainname.com</a></p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;很重要的一点是，如果你的网站出现了URL规范化的问题，千万不能使用Google的网址删除反馈表，来要求删除其中的一个网址版本。比如说，你所要的是带有www的版本</p>
<p><a href="http://www.domainname.com" target="_blank" rel="external">http://www.domainname.com</a></p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;你千万不能到Google的网站上填表，要求没有www的主页网址</p>
<p><a href="http://domainname.com" target="_blank" rel="external">http://domainname.com</a></p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;被删除掉。因为那样做的话，你整个的域名有可能被删除6个月。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;当然，除了包含www和不包含www的两个版本以外，还有其他类型的URL规范化问题。比如有的时候，搜索引擎会去掉或加上网址尾端最后的斜线。有的时候会尝试把大写字母换成小写字母，有的时候可能尝试去掉会话ID（session ID）等等，这些都有可能造成网址规范化问题。</p>

	

	
		<span class="different-posts"><a href="/2017/10/12/Apache/27. URL网址规范化/" onclick="window.history.go(-1); return false;">⬅️ Go back </a></span>

	

</article>

	</main>

	<footer class="footer">
	<div class="footer-content">
		
	      <div class="footer__element">
	<p>Hi there, <br />welcome to my Blog glad you found it. Have a look around, will you?</p>
</div>

	    
	      <div class="footer__element">
	<h5>Check out</h5>
	<ul class="footer-links">
		<li class="footer-links__link"><a href="/archives">Archive</a></li>
		
		  <li class="footer-links__link"><a href="/atom.xml">RSS</a></li>
	    
		<li class="footer-links__link"><a href="/about">about page</a></li>
		<li class="footer-links__link"><a href="/tags">Tags</a></li>
		<li class="footer-links__link"><a href="/categories">Categories</a></li>
	</ul>
</div>

	    

		<div class="footer-credit">
			<span>© 2017 失落的乐章 | Powered by <a href="https://hexo.io/">Hexo</a> | Theme <a href="https://github.com/HoverBaum/meilidu-hexo">MeiliDu</a></span>
		</div>

	</div>


</footer>



</body>

</html>
